自主驾驶技术是彻底改变运输和城市流动性的催化剂,它倾向于从基于规则的系统过渡到数据驱动的策略。传统的基于模块的系统受级联模块和不灵活的预设规则之间的累积性限制。相比之下,端到端的自主驾驶系统有可能避免由于其完全数据驱动的训练过程而导致错误积累,尽管由于其“黑匣子”性质,它们通常缺乏透明度,从而使决策的验证和可追溯性变得复杂。最近,大型语言模型(LLMS)已证明了能力,包括理解上下文,逻辑推理和生成答案。一种自然的想法是使这些能力赋予自动驾驶能力。通过将LLM与基金会视觉模型相结合,它可以为开放世界的理解,推理和几乎没有射击的学习打开大门,而这些学习缺少了熟练的自主驾驶系统。在本文中,我们系统地回顾了有关(视觉)大型语言驾驶模型((v)LLM4DRIVE)的研究行。这项研究评估了技术广告的当前状态,明确概述了该领域的主要挑战和前瞻性方向。为了方便学术界和学术界的研究人员,我们通过指定的链接:https:// github提供了有关该领域最新进展以及相关开源资源的实时更新。com/thinklab-sjtu/avesome-llm4ad。
主要关键词
![arxiv:2311.01043v4 [CS.AI] 2024年8月12日PDF文件第1页](/bimg/f/f22af71026940cf3e88dcab6643593433100fd44.webp)
![arxiv:2311.01043v4 [CS.AI] 2024年8月12日PDF文件第2页](/bimg/0/0a73f161b2baf542689f1a4318ba5b3aba566197.webp)
![arxiv:2311.01043v4 [CS.AI] 2024年8月12日PDF文件第3页](/bimg/c/c81c06ab78c9a9932137de3591d9b26cd4777a09.webp)
![arxiv:2311.01043v4 [CS.AI] 2024年8月12日PDF文件第4页](/bimg/9/9847c68fe9a10666dfb60f88bf39c0f7db188d50.webp)
![arxiv:2311.01043v4 [CS.AI] 2024年8月12日PDF文件第5页](/bimg/e/e12e98519ef19d0f0a5aa3d5d1a5ce2ca839e6cb.webp)
